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摘 要 : 大 数据 时 代 , 利用 传统 的 社区 发 现 算法 对 大 规模 复杂 网 络 进行 社区 结构 挖 据 显 得 愈 发 困难 , 准确 率 也 较 低 。 
此 , 提出 一 种 基于 平滑 厂 范 数 的 深度 稀疏 自 编码 器 社区 发 现 算法 厂 -ECDA (community discovery algorithm for deep 
sparse self-encoder based on smooth L norm)。 该 算法 首先 采用 基于 s 跳 的 方法 对 网 络 图 的 邻接 矩阵 进行 预 处理 ; 然 
后 构建 基于 平滑 五 范 数 的 深度 稀疏 自 编 码 器 ， 并 通过 训练 网 络 图 相似 度 和 矩阵 得 到 低 维 特征 天 阵 ; 最 后 采用 K-means 
算法 对 低 维 特征 矩阵 进行 聚 类 得 到 网 络 社区 结构 。 通 过 在 仿真 网 络 与 真实 网 络 数据 集 上 实验 表明 ，L -ECDA 算法 有 
效 提 高 了 社区 识别 的 准确 率 ， 且 比 DBCS 算法 准确 率 平均 高 4%， 比 Deepwalk 算法 和 CoDDA 算法 平均 高 5.4%。 
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Sparse AutoEncoder community recognition algorithm based on smoothed Li norm 


Zhang Junxiang, Li Shuqint, Liu Bin 
q (College of Information Engineering, Northwest A & F University, Yangling Shanxi 712100, China) 


Abstract: In the age of big data, it is increasingly difficult to make the community structure mining of large-scale complex 
networks by using the traditional community discovery algorithm and the accuracy rate is low. Therefore, this research come 
up with L-ECDA, a community discovery algorithm for deep sparse self-encoder based on smooth L norm. This 
algorithm preprocessed the adjacency matrix of the network diagram with the method based on s Jump; then it established 
the deep sparse self-encoder based on smooth L norm and get the low dimensional characteristic matrix by training the 
similarity matrix of the network graph; Finally, it get the network community structure by clustering the low-dimensional 
feature matrix through the K-means algorithm. Experiments on simulated network and real network data set show that the 
algorithm of L -ECDA improves the accuracy of community recognition effectively. Its accuracy rate is 4% higher than the 
DBCS algorithm on average, and 5.4% higher than Deepwalk algorithm and CoDDA algorithm on average. 
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然而 传统 社区 检测 算法 对 于 节点 数量 动 辑 上 百 万 ， 节 点 
之 间 关 系 错综复杂 的 大 规模 复杂 网 络 进行 社区 结构 挖掘 准确 
a 复杂 网 络 由 大 规模 用 户 个 体 及 用 户 之 间 的 复杂 关系 所 构 。” 率 往往 较 低 。 因 此 提出 一 种 更 加 准确 、 新 型 的 大 规模 网 络 社 
C 成 ， 社 区 结构 作为 复杂 网 络 的 重要 特征 之 一 ， 往 往 社区 内 部 。 ”区 识别 算法 成 了 吸 需 解决 的 问题 。 从 提高 社区 识别 的 准确 率 
(o 节点 之 间 的 连接 相对 稠密 ， 社 区 之 间 节 点 的 连接 相对 比较 稀 出 发 ， 本 文 提 出 基于 平滑 去 范 数 的 深度 稀 玻 自动 编码 社区 检 
疏 05。 现 实 世界 中 诸多 网 络 都 呈现 出 社区 结构 ， 比 如 高 校 学 ”测算 法 二 -ECDA。 该 算法 通过 对 网 络 高 维 相似 度 和 矩阵 进行 降 
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生 由 于 兴趣 差异 而 构成 不 同 的 社团 关系 网 络 、 知 网 中 学 者 之 维 ， 将 得 到 的 低 维 特征 矩阵 进行 聚 类 分 析 ， 从 而 得 到 更 加 准 

间 通 过 论文 引用 形成 关系 网 、 电 商 网 站 中 客户 购买 商品 形成 确 的 网 络 社区 结构 。 L-ECDA 算法 流程 如 图 1 所 示 。 

交易 网 等 。 近年 来 ， 社区 发 现 研究 弛 起 了 学 术 界 相关 学 者 的 Brew |. "m RERA menm 

高 度 重 视 ， 在 社会 学 、 计 算 机 科学 等 众多 领域 获得 了 极 大 关 动 编码 器 

注 与 深入 研究 四 。 社 区 发 现 对 复杂 网 络 中 节点 内 部 关联 、 个 

性 化 推荐 、 与 情 分 析 及 信息 传播 具有 重要 研究 意义 。 = L2 AREE] O Eras EAS 
近年 来 ， 整 个 互联 网 发 展 进入 大 数据 时 代 ， 伴 随 着 整个 处 理 

网 络 用 户 数 量 呈 爆炸 性 增长 ， 网 络 节点 剧 增 ， 节 点 之 间 的 关 图 1 L-ECDA 算法 流程 

系 越发 复杂 。 比 如 ， 腾 讯 、 阿 里 巴巴 等 用 户 规模 早已 超过 10 Fig.l L -ECDA algorithm flow chart 

ÍL, Facebook 每 月 的 活跃 用 户 数 量 超过 13 亿 。 因 此 ， 对 大 本 文 主要 贡献 如 下 : 

规模 复杂 网 络 社区 结构 进行 挖掘 , 分 析 用 户 之 间 的 关联 关系 ， a) 利用 基于 * 跳 数 方法 对 网 络 节点 的 邻接 矩阵 进行 预 处 

发 现 用 户 的 行为 规律 ， 可 以 为 广告 投放 、 精 准 营 销 、 个 性 化 理 ， 处 理 后 的 矩阵 既 能 反映 网 络 拓扑 结构 中 直接 相连 节点 之 


E 荐 及 与 论 控制 等 提供 辅助 决策 支持 。 
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司 的 相似 性 ， 又 能 反映 不 直接 相连 节点 间 的 相似 关系 。 
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bo 提出 基于 平滑 到 qi EC TR RES EI 
法 ， 提 取 相 似 度 和 矩阵 的 特 和 
络 拓扑 结构 中 的 社 


区 结构 


EE 表示， 得 到 的 低 


具有 更 好 的 表达 能 


c) 通过 在 仿真 数据 集 ，Stanford 大 学 网 络 数据 集 及 小 规 


模 数据 集 上 实验 表明 , ACT 
加 准确 的 网 络 社区 结构 。 


相关 工作 
社区 发 现 


HÉJ L -ECDA 算法 可 以 得 到 更 


设 大 规模 网 络 图 G=G(V,E) ， 社 区 发 现 根 据 网 络 结构 中 
聚合 成 一 系列 子 结构 ， 即 社区 后 。 


的 连接 关系 ， 将 全 部 节点 


同一 社区 内 节点 之 间 的 首 
谱 相 对 稀疏 趾 。 当 前 ， 经 典 的 社区 发 现 算法 可 以 分 为 模块 度 
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JENA ELA TE 
基于 模块 度 优化 算法 主要 思想 是 将 社区 发 现 问题 转换 为 


变相 对 紧密 ， 而 不 同 社区 之 间 的 连 


化 问题 ， 通 过 将 模块 度 定义 为 识 


的 指标 ， 对 比 模块 度数 
的 算法 有 GN 算法 回 、AGSO 459. Louvain IEE. 
化 与 层次 聚 类 相 结合 ， 使 得 算法 的 


Louvain 算法 将 模块 度 优 


值 来 得 到 最 佳 的 社 


计算 速度 更 快 ， 同 时 ， 社 
于 标签 传播 方法 是 一 利 
民 据 已 标记 节点 的 标签 


价 社区 挖掘 质量 好 坏 
又 划分 结构 。 常 见 


区 划分 结果 准确 性 也 得 到 了 提高 。 


型 的 标签 传播 算法 
算法 00、MMLP 算法 0 。 
到 标记 样本 间 的 最 小 代 
价 的 最 小 路 径 传播 来 实习 
是 出 了 


言 息 与 标签 信息 ， 


启发 式 社区 划分 算法 ， 其 基本 思想 
言 息 去 预测 未 标记 节点 的 标签 信息 。 
有 LPPB 算法 [1 .MCPLP 算法 四 .COPRA 
MCPLP 算法 首先 计算 未 标记 样本 
价 路 径 ， 然 后 根据 标记 沿 着 节点 间 代 
社区 划分 。He 等 人 03 结 合 网 络 链 
一 种 基于 多 视图 非 负 矩阵 分 解 模 
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上 区 发 现 算法 ， 获 得 了 较 高 质量 的 社区 结构 。 基 于 图 分 


的 社区 发 现 算法 是 将 


后 得 出 要 求 的 子 图 数 。 


Dilanni 等 人 


加 分 割 为 两 个 子 图 ， 然 后 不 断 和 迭代 ， 
在 考虑 节点 对 之 间 互 
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编码 器 


编码 


解码 器 


动 编码 器 形象 表示 
Fig.3 Automatic encoder image representation diagram 


动 编码 器 (sparse Auto-Encoder, SAE) 08 是 


动 编码 器 隐藏 层 神 双 


衍生 
lL 本 的 特 和 


生 降 维 与 非 线 性 降 维 


高 斯 分 布 特征 的 高 维 数据 时 


但 当 数 据 集 复杂 上 且 是 非 线性 结构 时 


编码 器 ， 能 够 在 恶劣 环境 下 学 习 
E， 有 效 对 数据 样本 进行 降 维 。 


E 高 张 军 祥 ， 等 : 基于 平滑 Ll 范 数 的 深度 稀疏 自动 编码 器 社区 识别 算法 第 37 卷 第 4 期 


动 编码 器 学 习 方 
特征 矩阵 对 网 


自 编 
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EFN 


了 非常 好 的 降 维 


线性 降 维 方法 在 


定 程 度 上 存在 短路 


择 问 题 ， 同 时 在 数据 拓扑 空间 不 稳定 的 情 


I 噪声 干扰 。 因 此 ， 需 要 
中 存在 的 缺陷 。 本 文采 用 深度 学 习 中 
在 自 编码 器 基础 上 加 


理 ,通过 


也 技 术 来 改进 


编码 
«frs 


FI Ai 1 RR AC UIS ARCHI 
入 数据 ， 达 到 数据 降 维 


mrmi ATEL 


图 G=(V,E), LHA V ={ Vis V23% Vn IE k H 


的 情况 下 ， 引 入 min-max 社区 的 概念 ， 


节点 集 。Zeng 等 人 


与 并 行 聚 类 有 效 性 


1 在 图 分 割 理 论 基 础 


chinaXiv 


于 建 模 高 度 连 
E, 研究 了 网 络 
之 间 的 关系 ， 提 出 了 一 种 分 布 于 内 存 
的 并 行 社区 发 现 算法 。 基 于 图 侍 入 方法 是 先 对 抢 阵 进 
行 降 维 ， 再 聚 类 得 到 社区 结果 。 和 典型 算法 有 DeepWalk051、 


9、GraRepH71。DeepWalk05] 算 法 根据 随机 漫步 模型 生成 


子 网 络 ， 再 利用 skip-gram 模型 计算 H 
类 得 到 社区 。 

1.2 自动 编码 器 
自动 编码 器 (auto encoder, AE)08 


三 层 神经 网 络 结构 ， 
重 过 将 神经 网 络 的 隐藏 


网 络 图 


是 神经 网 络 的 一 种 ， 其 


据 经 过 隐藏 层 后 ， 到 达 输 出 层 ， 利 


即 输入 层 、 隐 藏 层 及 输出 层 。AE 
当做 一 个 编码 器 与 解码 器 ， 输 入 数 


Sem 


所 示 。 


络 使 得 输入 等 于 输出 。 


j 反 向 传播 算法 来 训练 网 


结构 如 图 2 所 示 ， 


自动 编码 器 结构 


Fig.2 Automatic encoder structure diagram 


ES Xx 3 


Ez(e.6..6, } 为 边 的 集合 。 
E 阵 表示 为 40 = [ay]... 
则 表示 节点 vw 与 vj 之 间 存 在 连接 关系 , 否则 
接 用 邻接 矩阵 Adi 来 描述 


以 性 关系 ， 显 然 不 全 面 ， 事 实 上 网 络 图 


点 也 会 存在 一 定 的 相 


似 关系 ， 仅 仅 使 用 久 


的 


HET 
节点 之 间 的 连接 关 
, 9; 取 值 为 1 或 0, 若 @=1， 


两 节点 之 间 不 


的 


EI 


"UH 


显然 会 影响 社区 检测 的 质 


画 网 络 图 中 节点 之 | 


其 于 跳 数 的 方法 ， 对 节点 的 邻接 矩阵 重 计 
所 的 邻接 矩阵 。 
定义 1 跳 数 s。 设 网 络 图 


G=(V,E) ， 对 于 节 


里 过 程 如 算法 1 所 示 。 
: 计算 跳 数 集合 、 网 络 
Ed G - (V. E) 的 邻接 入 


UE X. 


lforeach x in V; 


RAUEN 


KI 


日 似 性 关系 ， 本 
进行 计算 ， 


若 节 点 v 到 节点 4 的 最 短路 径 为 s, 则 称 节点 v 可 以 经 过 s 跳 


定义 2 节点 相似 度 。 对 于 网 络 G=(V,E)， 其 中 v ,ueV， 
则 车 点 v 与 4 之 间 的 相似 度 Simt , 由 为 
Sim( v , u )= et» 
: s>1, 随 着 跳 数 s 的 增加 ， 节 点 之 间 的 相 人 
增 后 减少 趋势 ，o 为 衰减 因子 ，o (0,D)， 
0 越 大 ， 则 衰减 越 快 。 
定义 3 ”网 络 相 似 度 和 矩阵 。 对 于 网 络 菇 


义 图 G 对 应 的 相似 度 和 矩阵 为 Xx = [xj], HH 


(1) 
Gi 
HL EET AAAA 


G-(V.E), Wig 


H xj = Sim(v;.v;) = 


ERE Adj e R™ SEA ji] 
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2 初始 化 图 G 中 所 有 的 节点 状态 为 未 访问 状态 ; 
3 分 别 初始 化 跳 数 集合 Hop - NULL ; 队列 Queue = NULL ; 
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ES 


完 过 程 中 ， 之 所 以 很 少 有 研究 学 者 使 用 
为 自 编码 器 的 稀疏 项 ， 甚 重要 的 因素 是 二 范 数 在 完整 区 间 
可 


L 范 数 


From 


mi 


4 将 x 设置 为 访问 中 状态 ,初始化 x 的 跳 数 为 0， 并 将 
x 和 跳 数 s , 写 入 集合 Hop 中 ， 并 将 x 加 入 队列 Queue ; 

5 while Queue + NULL ; 

6 从 队列 Queue 中 取出 网 络 节点 4; 

7 foreach v in N(u); 

8 if "f£ x B) (s- DIE E v 处 于 未 访问 状态 ; 


9 “将 "设置 为 访问 状态 ， 同 时 将 x 到 Y 的 跳 数 等 于 x 
B u 的 跳 数 加 1; 

10 ”将 rv 及 x 到 v 的 跳 数 写 入 跳 数 集合 Hop ,并 将 v 加 
入 队列 Queue ; 

11 end 

12 end 

13 将 4 标记 为 访问 结束 状态 ; 

14 end 


15foreach v in V; 

16 根据 跳 数 集合 Hop 及 式 (1) 计 算 x 和 v 的 相似 度 Sim 
(x, V) 

17 end 

18end 

19 Return 基于 跳 数 的 相似 度 矩 阵 X ; 
在 算法 1 中 ， 先 计算 出 跳 数 集合 Hop, HARRON 
出 网 络 图 的 相似 度 和 矩阵 x 。 从 第 5 行 到 第 16 行 , 对 网 络 图 G 
中 的 每 个 节点 x， 使 用 BES 广度 优先 遍历 算法 找到 节点 x 在 


s 跳 内 能 达到 的 节点 v ,将 v, x 与 v 之 间 的 跳 数 写 进 集合 Hop , 


从 15 行 到 17 行 ,计算 x 与 点 集 V 内 其 他 节点 的 相似 度 , di v 
在 Hop W, WEHRO Sim, y), EW Sim(x , v )=0。 


3 ”特征 提取 


本 章 将 介绍 L -ECDA 算法 进行 特征 提取 的 详细 过 程 。 首 
先 介 绍 稀疏 惩罚 函数 平滑 工 范 数 ; 然后 讲述 构建 基于 平滑 五 
范 数 的 深度 稀疏 自动 编码 器 的 过 程 ,对 预 处 理 后 的 相似 度 拢 
KE x 进行 特征 提取 ， 并 通过 聚 类 得 到 社区 挖掘 结果 。 
3.1 3B L 383 
为 了 能 够 更 好 地 提取 出 高 维 数据 中 的 低 维 特征 值 ， 往 往 
使 用 稀疏 惩罚 函数 对 隐藏 层 的 输出 值 加 上 某 种 稀疏 性 约束 ， 
从 而 实现 为 输入 数据 学 习 到 稀疏 表示 。 通 常 引入 KL 散 度 作 
为 自动 编码 器 中 稀疏 性 的 表示 ， 其 公式 如 式 (2) 所 示 。 


j= 
P +(1-p)log T (2) 


S(r) = plog +( 


其 中 : 编码 器 模型 中 第 j 个 隐藏 层 单元 


T" 
t= pio ESI 
i 


在 m 个 训练 模型 样本 中 的 平均 输出 值 ，a? 为 第 i 个 样本 的 第 
j 个 隐藏 层 单元 的 输出 值 ， 超 参数 p>0 ， 表 示 稀 疏 级 别 ， 2 
值 越 小 则 表示 越 稀 琉 。 结 合 KL 散 度 函数 ， 得 到 稀疏 编码 器 
的 目标 函数 如 式 (3) 所 示 。 


n2 hs (x) x+ 了 人。 is 小 w2 3) 


Ez: m 


其 中 : hs RAR Bio A i d 70 v P ESOS: POCO I 2C 
虽然 采用 KL acie dus 3j HR 

BÆRERE, L 范 数 能 够 诱导 出 更 好 的 稀疏 性 P0-23， 

且 已 经 广泛 应 用 于 机 器 学 习 Sa 


域 C0。 但 是 并 没有 
相关 研究 者 使 用 去 范 数 作为 自 编码 器 的 稀疏 性 表示 ， 来 实现 
网 络 社区 的 检测 研究 。 


函数 取得 了 不 错 的 效果 ， 


是 一 个 不 可 导 函 数 ， 
优化 带 来 了 一 定 的 挑战 。 针 对 此 问题 ， 


“inf-conv” 平 ; 
自 abdo 

*inf-conv" [fj 
很 好 地 满足 该 
函数 为 范 数 


数 与 平滑 L 范 数 之 间 的 相似 度 | 
， 两 者 之 间 越 相似 。 


值 越 小 


即 在 零点 不 可 导 ， 该 缺陷 给 神经 网 络 的 
本 文 对 去 范 数 使 用 
滑 技 术 来 解决 此 问题 ， 从 而 替换 到 范 数 作为 
的 稀 朴 项 。Abemethy 等 人 R31 提出 一 种 称 为 
FARR", L 范 数 作为 不 可 微 凸 函数 ， 能 够 
FE 滑 技术 的 条 件 。 当 “infconv” 平 滑 技 术 的 输入 
M, EB L 范 数 如 式 (4) 所 示 。 在 式 (4) 中 ,， 工 范 
超 参 数 4 控制 , A u> HEX 
显然 ， 引 进 平滑 到 范 数 实质 就 是 


在 零点 附近 将 不 可 导 的 二 范 数 蔡 换 为 己 范 数 。 


但 是 ,， 若 直接 将 KL 散 度 式 (3) 更 改 为 式 (4) 并 作为 稀 疏 自 
编码 器 的 稀 疏 惩罚 函数 ， 则 会 出 现 一 些 问题 ， 因 为 在 稀 
Ins u 
g, (1)= dl (4) 
-f Wa 


fj EL 2] 2 03 38 rH, 
数 ， 其 中 simoid(x)=1/1+exp(-x) ,该 函数 在 定义 域内 皆 


simoid(x) €(0,1) , 


HPE ap s 


值 a? 


常常 选用 simoid 函数 作为 编码 器 的 激活 函 
满足 
即 此 时 AE 中 任意 隐藏 层 的 输出 单元 的 输出 
函数 的 自 变量 1 满足 


(0,1) ,进而 导致 惩 罚 函 


te(0,1) 。 在 该 范围 内 ， 对 研 范 数 进行 平滑 是 没有 意义 的 ， 医 


JH L 范 数 函 数 在 该 定义 域 范围 内 是 可 导 的 。 但 1 
引入 稀疏 级 别 参数 P 为 稀疏 惩罚 函 


式 (2) 可 知 ， 
数 带 来 了 更 大 的 可 调 性 。 


基于 此 ， 本 文 将 平滑 厂 范 数 式 (4) 向 右 平滑 和 个 单位 来 克服 上 


述 “ 平 滑 无 意义 


平滑 二 范 数 在 使 用 时 的 灵活 度 。 


”的 缺陷 ， 且 该 做 法 可 以 在 一 定 程 度 上 提升 


因此 ， 使 用 式 (5) 蔡 换 KL Bi 


度 来 作为 稀 ii E32] 2 1388 EIS] P n 5 31 ERI 函数 ， 


-su 
s(efQ)ei ^" (5) 
k--7 t-> 


其 中 : 为 了 保证 平滑 二 范 数 的 有 效 性 ， 需 要 界定 超 参 数 和/ 
的 取 值 范围 ， 通 常情 况 下 ，0<y<1， 因 为 7 是 控 
的 ， 若 7 在 非 定义 域内 取 值 ， 
没有 意义 的 ;而 参数 4 的 取 值 为 0<4<max{y,1 


HRAD 
则 针对 二 范 数 进 行 平 滑 操 作 是 
y Xx 


O0cu 


AE HR ARRE Lado Lao IRIURE, 但 为 了 


Br E ERE Ls ea 


区 检测 时 退化 为 于 范 数 ， 则 要 求 


HE max{y,1—7y} 。 


3.2 构建 基于 平滑 冯 范 数 的 深度 稀疏 自动 编码 器 


在 图 


(encode) 过 程 。 


中 


2 中 ， 


一 个 节点 在 G 中 对 应 的 向 量 *eR" Je, £ 


从 输入 层 到 隐藏 层 则 对 应 于 图 3 中 的 编码 
当 给 定 网 络 图 G 的 相似 度 矩 阵 X=[5],, ,输入 


输 


条 过 编码 后 


出 该 节点 对 应 的 低 维特 征 向 量 heR* S T 


re 
从 隐藏 层 到 输 


进行 解码 ， 


则 相当 于 一 个 解码 的 过 程 ,在 这 个 过 程 中 ,对 低 维特 征 向 量 
得 到 输 iz n 向 量 X 
码 与 解码 的 过 程 中 ， 使 用 反 向 传播 算法 
器 与 解码 器 中 的 参数 ， 


E 
h; 


相同 的 维度 。 在 纺 
练 网 络 ， 调 整编 码 
使 得 重 构 误差 最 小 化 ， 从 而 让 输出 向 


QHox Ej x, H 


Ex 5A TR 


经 元 的 编码 层 


量 % 近 似 相 等 。 而 在 这 个 过 程 中 ， 得 到 的 低 维 
向 量 即 作为 特 
在 上 述 网 络 训练 的 过 程 中 ， 假 设 将 二 输入 到 


征 结果 。 


J d 个 神 
向 量 h eR 。 


Ph， 经 过 式 (6) 后 ， 得 到 低 维 
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其 中 : s 为 激活 函数 ， 常 取 5/ =1/1+exp(-z) ; WeRt 为 权重 


ERE; pe RW"” 为 编码 层 中 的 偏 置 向 量 。 
将 向 量 疡 输入 到 解码 层 中 ， 通 过 式 (7) 解 码 后 ， 得 到 
x e R^! 作为 输出 结果 : 


x =s, (Wh +q) (1) 


其 中 : se EE aP AWOR RAG W =W" eRe 为 权重 矩阵; 


4sR” 为 解码 层 中 的 偏 置 向 量 。 
在 训练 的 过 程 中 ， 通 过 调整 自动 编码 器 中 权重 矩阵 与 偏 


E EVA Z3 86-(W.W.s py, Wig x 5 x ERE 
为 


Eun mizey's, (Wis, (Wx; + p)*q) -xá (8) 
基于 3.1 节 , SLE JH R) A El S1] RO AE IS DURS RE BR f 
则 构建 基于 平滑 二 范 数 的 稀疏 自动 编码 器 的 重 构 误差 如 式 (9) 
所 示 。 


L9)- y. (Ws, (Wx; * p)*4)-xà +5S(t) (9) 
构建 基于 平滑 工 ya A h YR E Pa uda E e JA Pa a 
其 结构 如 图 4 Bras. 


动 编码 器 组 成 


, 
加 个 节点 


/^N 
- 


CEMEZSUE D H B) AE DEA 
Fig.4 Deep sparse autoencoder structure diagram 
在 训练 的 过 程 中 ， 使 用 逐 层 贪 禁 的 训练 方法 ， 有 具体 的 训 
练 过 程 如 下 : 首先 设置 编码 器 的 层 数 M 及 每 层 的 节点 7 = 
{49,49,.…d09} ,其 中 do =n ,并 将 给 定 网 络 图 G 的 相似 度 矩 阵 
XO eR” 输入 到 具有 de 个 节点 的 编码 器 中 , 训练 后 得 到 编码 
ARN XO em , 然后 将 前 一 层 得 到 的 编码 结果 x o 输入 到 
有 de 个 节点 的 编码 器 中 ， 提 取 训 练 后 的 编码 结果 
XO e g^ , 如 此 循环 ， 当 最 后 一 个 自动 编码 器 训练 得 到 的 编 
码 结果 为 Xe Rw 时， 循环 终 止 ， 最 后 ， 输 出 经 过 循环 后 
得 到 的 低 维 特征 矩阵 X09。 特征 提取 详细 过 程 见 算法 2. 
算法 2: 对 相似 度 和 矩阵 X 进行 特征 提取 ， 再 聚 类 得 到 社区 


结果 


输入 : 网 络 图 相似 度 矩 阵 X 。 
输出 : 社 区 发 现 结果 (0.6.6. 
1x02X; 
2for j =lto T ; 

3 构建 基于 平滑 到 YR A d 3 2s s 
4 ”输入 特征 矩阵 X0; 

5 ”通过 优化 式 (4-80 VIL ZR IB 
6 获得 隐藏 层 的 表示 HO; 
7 

8 


动 编码 器 ; 


XOD 2 HO, 


end 


结果 C={C CC ; 

10 Return 社区 结果 C={C, CC o 

在 算法 2 中， 从 第 1 (T3028 8 行 是 对 相似 度 矩 阵 x 进行 
特征 提取 。 通 过 循环 迭代 M 次 ,每 次 使 用 一 个 稀 玻 自动 编码 
器 从 编码 层 中 提取 低 维特 征 抢 阵 Ho ,并 使 xo 2 Ho 作为 下 
一 次 循环 的 输入 矩阵 。 最 终 循环 停止 ， 得 到 低 维 特征 矩阵 
XD e ge^ 。 第 9 行使 用 K-means 算法 对 低 维特 征 矩 阵 进 行 
聚 类 ， 首 先 以 节点 最 小 关联 度 原 则 选取 新 的 聚 类 中 心 ， 然 后 
以 最 大 关联 度 原 则 进行 模式 归 类 , 直到 所 有 节点 划分 完 为 止 ; 
最 后 采用 模块 度 优 化 确定 K 值 ， 得 到 结果 社区 C = 
(6.6.6). 


4 ”实验 结果 与 分 析 


本 章 中 ， 首 先 对 实验 数据 集 进行 简单 的 描述 ;然后 介绍 
社区 发 现 准确 率 的 评判 指标 ;最 后 针对 社区 发 现 的 准确 率 、 
实验 参数 进行 了 详细 分 析 ， 并 对 小 规模 数据 集 进 行 可 视 化 展 
Ze 
4.1 数据 集 描述 

本 节 采 用 三 种 数据 集 论 证 五 -ECDA 算法 的 有 效 性 : a) 
利用 LER 基准 程序 随机 生成 人 工 模拟 大 规模 复杂 网 络 数据 
EPA, b)Stanford 大 学 网 络 数据 分 析 项 目 组 Stanford Network 
Analysis Project(SNAP) 实 复 杂 网 络 数据 集 
(Http://snap.standford.edu/data/index.html); c) 利 用 典型 的 小 规模 
实 网 络 数据 集 进 行 可 视 化 展示 。 表 1 为 实验 室 数 据 集 详细 信 
息 , 表 2 为 Epinionsl、NotreDame、Pokec 数据 集 的 深度 神经 
网 络 结构 。 

Lancichinetti £ APAE E LFR 基准 程序 是 一 种 用 于 生成 
模拟 网 络 的 算法 。 该 算法 可 以 用 来 验证 社区 检测 算法 的 准确 
性 ， 具 有 较 高 的 实用 价值 。LFR 基准 程序 根据 用 户 输 入 的 参 
数 ， 生 成 符合 真实 网 络 特征 的 人 工 合成 网 络 与 对 应 的 社区 结 


—- [Hl 


T 


Md 


del 实验 数据 集 
Table 1 Experimental data set 
a) 仿 真 网 络 数据 集 
a) Simulation network data set 
名 称 节点 边 参数 ” YHE 
L-1W 10000 78546 0.3 15.71 
L-10W 100000 2021456 0.3 40.43 
L-50W 500000 9845687 0.3 39.38 
L-100W 1000000 20254864 0.3 40.51 
b) 真 实 网 络 数据 集 
b) Real network data set 
名 称 节点 边 平均 度 描述 
Epinionsl 75879 508837 13.41 Epinions.com 
NotreDame 325729 1497134 9.19 Notre Dame web 
Pokec 1632803 30622564 37.51 Pokec 数据 集 
com-friendster 65608366 1806067135 55.06 dai d 
social-network 
c) 小 规模 数据 集 
c) Small data set 
名 称 节点 边 平均 度 描述 
Karate 34 78 4.58 空手 道 俱 乐 部 网 络 
football 115 652 11.33 足球 队 数据 集 
jazz 198 2742 27.00 BIA PORA RE 
facebook 5000 8194 3.28 Facebook 子 网 络 
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A2 深度 神经 网 络 结构 


Table 2 Deep neural network structure 


等 : 基于 平滑 Ll 范 数 的 深度 


数据 集 


每 层 节 点 数 


Epinionsl 


NotreDame 


Pokec 


75879-61384-30692-16384-8192-4096-2048-1024 
303516-151758-75879-61384-30692-16384- 
8192-4096-2048-1024 
1632803-1214064-607032-303516-151758- 
75879-61384-30692-16384-8192-4096-2048 


4.2 


评价 指标 及 对 比 算法 


Ak xc H H 


E 区 A X if 


NMlI(normalized mutual information) 这 两 个 通用 的 社 


标准 对 社区 识 另 


E 确 率 DA(dedection accuracy) 与 


别 的 准确 率 进行 分 析 。 社 区 发 


率 与 查 准 率 两 


定义 4 社 


正确 识别 社 


个 信 息 检索 指标 相 结 合 [zu 可 信 度 较 高 。 
区 发 现 准确 率 DA。 将 社区 发 现 准 


DA(detection accuracy) 表 示 ， 如 式 (10) 所 示 。 


DA = 


其 中 : 7 为 网 


max{C; n CIC; e C) 为 所 有 结果 社 


共 节 点 的 数据 
质量 越 好 。 
定义 5 


information,NMI1), 它 是 社 


式 如 式 (11) 


C - (6,6, 


k " y r 
SO ETN 


络 节点 数 ; C= {GC,G,…， 
CO 表示 利用 算法 检测 出 来 的 社 


区 集 与 第 ; 个 精准 


的 最 大 值 。DA 值 越 大 ， 则 表示 社 


NMI。 归 一 化 互信 


C. 表示 原始 的 社区 集 


区 集合 ; 


x 评价 
岗 准确 率 将 查 全 


确 率 定义 为 
区 中 节点 的 个 数 与 网 络 节点 总 数 的 比率 ， 


用 


(10) 


社区 C; A 
区 检测 结果 


I (normalized mutual 


区 精准 度 评价 标准 之 一 ， 其 


所 示 。 


-25° we 新 zw) 
YN. ve (At 路 SR 


H. rH 


的 行 对 应 标准 


th: C; 表示 第 j 个 精准 社区 ; C; 为 第 个 真实 社 


的 社区 结果 , 列 对 应 算法 得 到 的 社 


区 检测 


N, 表示 第 i 行 


的 求 和 , Ni 表示 第 J 列 的 求 和 ; 


的 公共 节点 数 


实验 对 比 
动 编码 器 的 社 


区 ; 矩阵 
结果 ; 


Nd C; 与 Gi 


计算 公 


a1) 


N 


算法 包括 尚 敬文 等 人 
区 发 现 算法 CoDDA, 


菩提 出 


O AS 


-ECDA ÑA 


wD 


路 很 相似 , 两 者 皆 是 先 对 相 


FI5] 是 一 


取 , 再 通过 聚 类 得 到 社 


区 结构 。Deepwalk 算法 


pa 


[S] 


BONIS ZI 
网 络 图 的 低 维 
一 种 复杂 网 络 
首先 计算 出 节 
块 度 增 量 最 大 
之 间 的 模块 度 
4.3 实验 结 
4.3.1 社区 发 


法 ， 利 用 随机 游 走 和 skip-gram 模 
和 矩阵， 再 计算 得 到 社 
社区 发 现 并 行 算法 ,该 算法 采用 模块 度 的 
点 之 间 的 模块 度 增 量 ， 
的 节点 对 ， 
增 量 ， 从 而 实现 大 规模 网 络 社区 识别 。 


Euh 


AR 
JL7E 58 3E 2 Ar 


定义 4 
反映 节点 归属 


可 知 ，DA 能 够 直观 表示 社 


区 检测 


TRE RS i 
该 算法 与 本 文 提出 的 五 
以 度 和 矩阵 进行 特 
一 种 基 
型 ， 获 取 到 
区 结果 。DBCS 算法 R91 是 
nad, 


H 


征 


然后 迭代 寻找 出 所 有 模 
再 进行 合并 操作 ， 并 不 断 更 新 节点 


的 准确 率 ， 


社区 的 正确 性 。 因 此 ， 


本 文采 


检测 质量 的 评 
不 同 算法 上 社 


判 标 ; 
区 检测 


的 准确 率 。 可 以 得 出 如 下 结论 


用 DA 作为 社区 
。 在 表 3 和 图 5 中 列 出 了 测试 数据 集 在 
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度 稀疏 自动 编码 器 社区 识别 算法 


节点 的 
BER 


IIL 


相似 


维特 征 和 矩阵 。 
CoDDA 算法 $5.4%， 这 是 | 
提取 时 , L -ECDA 算法 采用 平滑 五 
疏 惩 罚 函 数 ， 得 到 的 低 维 特征 矩阵 更 能 表达 网 络 的 结构 ， 这 
性 。 DBCS 算法 在 大 规模 数据 集 
比 Deepwalk 算法 
保持 在 70% 左 右 ， 


征 


证 明 


EA 35 
识别 


在 状态 转移 过 程 


度 和 矩阵 ， 更 加 完善 了 节点 的 局 
自 编码 器 进行 训练 ， 得 到 更 加 
L-ECDA 算法 


划分 


部 信 


准确 表达 社 
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自 


Pn 


， 并 通过 深 
区 结构 的 低 


的 社 


区 结果 平均 


ET 
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显 高 于 其 他 算法 ,这 说 明 本 文 提 出 的 五 -ECDA 算法 , 对 于 社 
区 结构 较为 模糊 的 网 络 具 有 较 好 的 性 能 优势 。 这 是 由 于 工 
-ECDA 算法 在 特征 提取 过 程 中 ,取出 有 价值 的 信息 ， 去 除 高 
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对 于 jazz 网 络 数据 集 , 设置 衰减 因子 参数 o=0.5, 构 建 基 

于 平滑 五 范 数 的 深度 稀疏 自动 编码 器 每 一 层 的 节点 数 为 
[198-128], 分 析 对 比 不 同 跳 数 的 取 值 对 于 NMI 的 影响 , 并 比 


维 数据 的 元 余 特 征 项 ， 得 到 的 低 维 特征 矩阵 更 加 能 够 表达 节 
点 的 局 部 信息 。 


T T 
—*— DBCS 
—3*— Deepwalk | | 
—3*— CoDDA 

—*— L1-ECDA 


准确 率 A) 
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Y 值 


图 6 YY 值 变化 下 不 同 算法 社区 发 现 准确 率 比较 


Fig.6 Comparison of community detection accuracy of different 


algorithms under change ofthe Y 

4.32 参数 实验 

1) 衰减 因子 参数 o 

对 于 Epinionsl 网 络 数 据 集 ， 设 置 跳 数值 为 s=15, 构 建 基 
TE a d XE BUG dL ED x4 £m 03 28 5k ERU C xx X 
[75879-61384-30692-16384-8192-4096-2048-1024], 49x EG 
不 同 衰减 因子 参数 o 的 取 值 对 于 NMI 的 影响 。 由 图 7 可 知 ， 
SEH L -ECDA 算法 对 网 络 节 点 的 相似 度 和 矩阵 进行 特征 提取 
后 ， 再 进行 社区 划分 比 直 接 使 用 K-means 算法 进行 聚 类 得 到 
的 社区 划分 结果 更 加 准确 。 


1 
—*—L1-ECDA 
—*— K-means 
0.8 上 
0.6 上 
Z 
z 
04r 
02r 


04 02 03 04 05 06 07 08 09 1 
衰减 因子 a 
图 7 不 同 衰减 因子 参数 o F, 在 Epinionsl 数据 集 上 使 用 L -ECDA 
算法 与 K-means 算法 NMI 值 比较 
Fig.7 Comparison of NMI between L -ECDA algorithm and 


K-means algorithm on Epinions] data set under different value of 
attenuation factor parameter o 

根据 图 7 所 示 ， 当 衰减 因子 参数 o 逐渐 增加 时 ，NMI 整 
体 呈 先 递增 再 递减 趋势 。 因 为 根据 式 (20 可 知 ， 随 着 跳 数 s 
的 增加 ， 节 点 相似 度 逐 渐 减 少 ， 而 = 控制 着 相似 度 的 衰减 程 
度 。 对 于 规模 较 小 的 数据 集 Karate, 设置 衰减 因子 参数 c =0.6 
来 避免 参数 c 过 大 对 社区 边界 的 模糊 作用 。 当 数据 集 规 模 较 
大 时 ， 可 以 选择 稍 小 的 衰减 因子 o =0.2， 这 样 可 以 更 好 的 获 
取 节 点 的 局 部 特征 ， 以 达到 最 好 的 结 

2) 跳 数 参数 


较 得 出 使 用 -ECDA 算法 得 到 的 社区 划分 结果 比 直接 使 用 
K-means 算法 进行 聚 类 更 加 准确 。 
图 8 所 知 ，NMI 整体 呈 先 递增 后 递减 的 趋势 ， 这 也 符 
合 实际 情况 ， 因 为 真实 网 络 中 ， 不 直接 相连 但 经 过 一 定 跳 数 
可 以 达到 的 节点 间 存 在 一 定 相 似 度 ， 若 跳 数 过 大 ， 距 离 较 远 
的 节点 也 存在 一 定 的 相似 度 ， 却 增加 了 社区 识别 边界 的 模糊 
度 。 对 于 规模 较 小 的 数据 集 jazz， 跳 数 阔 值 *=3; 对 于 规模 
稍微 较 大 的 数据 集 facebook， 选 取 跳 数 s=9, 即 可 以 到 达 最 优 


的 结果 。 


0.8 上 
0.6 F 
三 
z 
0.4 F 
02- —k—L1-ECDA| | 
—k— K-means 


123.456 7 8 9 101 12 13 14 15 
跳 数 S 
图 8 不 同 参数 s 下 ， 在 facebook 数据 集 上 使 用 五 -ECDA 算法 与 
K-means 算法 NMI 值 比较 
Fig.8 Comparison of NMI between L -ECDA algorithm and 


K-means algorithm on facebook data set under different value of 
parameter s 

3) 编码 器 的 层 数 M 

在 构建 基于 平滑 民 范 数 的 深度 稀疏 自动 编码 器 基础 上 ， 
XT 2538 5€ Epinionsl, NotreDame, 设置 衰减 因子 参数 o =0.1， 
跳 数 s 分 别 为 15、20, 对比 分析 不 同 层 数 的 稀疏 编码 器 对 NMI 
评价 指标 的 影响 。 

如 图 9 所 示 , Epinions] 与 NotreDame 数据 集 在 不 同 层 数 
KIR BERI E A de POCHI -ECDA 算法 的 NMI 值 对 比 。 
对 于 Epinionsl 数据 集 ， 当 稀疏 自 编码 器 的 层 数 达到 八 层 

(75879-61384-30692-16384-8192-4096-2048-1024) 时 , 使 用 
L -ECDA 算法 进行 社区 划分 时 性 能 达到 最 佳 , 但 当 深 度 稀 疏 
编码 器 的 层 数 再 增加 时 ， 社 区 划分 的 准确 性 呈现 递减 趋势 。 
结果 表明 ， 采 用 深度 学 习 中 的 稀疏 编码 器 学 习 方 法 可 以 提取 
网 络 社 区 结构 中 的 特征 信息 ， 提 高 社区 划分 的 准确 性 ， 但 若 
编码 器 的 层 数 设置 过 高 ， 则 可 能 部 分 特征 信息 被 过 滤 掉 ， 降 
低 了 社区 划分 的 准确 性 。 对 于 NotreDame 数据 集 ， 当 编码 层 
数 达 到 10 层 时 ， 其 社区 划分 质量 达到 最 佳 。 
4.3.3 可 视 化 展示 
使 用 五 -ECDA 算法 分 别 在 数据 集 Karate, football 以 及 
jazz 上 进行 实验 并 可 视 化 展示 。 从 图 10a) ~(c) 可 以 发 现 ， 工 
-ECDA 算法 在 小 规模 数据 集 上 的 识别 率 很 高 , 与 经 典 的 社区 
发 现 算法 不 相 上 下 〈( 表 3)。 此 外 ， 根 据 图 10(b) (c) RT Af, 
尽管 football 数据 集 与 jazz 数据 集 的 节点 数目 相差 不 多 ， 但 
jazz 数据 集 的 复杂 度 却 比 football 高 很 多 。 由 表 3 可 知 , 采 
L-ECDA 算法 进行 社区 检测 时 ，football 数据 集 的 识别 率 比 
jazz 数据 集 要 高 4.2%， 这 表明 网 络 的 复杂 度 对 五 -ECDA $i 
法 社区 识别 质量 具有 一 定 影响 ， 显 然 与 客观 事实 相符 合 。 
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Fig.10 Visualization of community recognition results 
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自 编 码 器 社区 发 现 5 -ECDA 算法 。 该 算法 首先 将 网 络 
， 重 新 计算 节点 之 间 的 相似 度 矩 阵 ; 
TOPR L 范 数 的 深度 稀疏 自 编码 器 对 相似 度 久 
网 络 图 的 低 维 特征 ; 最 后 通过 K-means 


区 结构 。 通 过 在 仿真 数据 集 、Stanford 大 学 网 络 
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